Para este proyecto utilizo la Encuesta Nacional de la Población Privada de la Libertad (ENPOL) correspondiente al año 2021, la cual es una operación estadística desarrollada por el Instituto Nacional de Estadística y Geografía (INEGI) de México. Esta encuesta constituye una de las fuentes más completas y actualizadas sobre las condiciones de vida, características sociodemográficas y situación jurídica de las personas privadas de la libertad en el país.
La ENPOL tiene como objetivo generar información confiable sobre diferentes aspectos del internamiento, tales como el acceso a servicios básicos, el nivel de hacinamiento, los antecedentes familiares y laborales de la población reclusa, y la experiencia que las personas han tenido dentro del sistema penitenciario. Esta encuesta se ha aplicado en dos ocasiones, en 2016 y 2021; para este trabajo utilizo los datos más recientes.
En general, la ENPOL incluye una amplia variedad de temas: desde variables sociodemográficas hasta condiciones específicas del internamiento, percepciones de seguridad, reincidencia, vínculos familiares y características del centro penitenciario. En este proyecto se trabajó con un subconjunto de estas variables, las cuales fueron:
| Diccionario de Variables del Estudio | ||
| variable | definicion | tipo |
|---|---|---|
| id_persona | Identificador único del participante | Categórica (ID) |
| edad | Años cumplidos al momento de la encuesta | Cuantitativa |
| estado_civil | Estado civil recodificado en 4 categorías | Categórica |
| escolaridad | Nivel educativo agrupado en 4 niveles | Categórica ordinal |
| tiene_hijos | Indica si el participante tiene hijos | Categórica dicotómica |
| numero_hijos | Número total de hijos | Cuantitativa |
| mantiene_alguien | Mantenía económicamente a alguien antes de la detención | Categórica dicotómica |
| personas_celda | Número de personas con quienes comparte celda | Cuantitativa |
| comida_dia | Número de comidas proporcionadas al día | Cuantitativa |
| horas_celda | Horas que pasa en la celda durante un día | Cuantitativa |
| seguridad_celda | Percepción de seguridad en la celda | Categórica dicotómica |
| antes_recluido | Ha sido recluido previamente | Categórica dicotómica |
| veces_recluido | Número total de reclusiones previas | Cuantitativa |
| vivio_con_madr | Vivió con su madre antes de los 15 años | Categórica dicotómica |
| vivio_con_padr | Vivió con su padre antes de los 15 años | Categórica dicotómica |
| mujer | Dummy: 1 si es mujer | Categórica dicotómica |
| detencion_varo | Dummy: 1 si el centro es varonil | Categórica dicotómica |
| detencion_fem | Dummy: 1 si el centro es femenil | Categórica dicotómica |
res.pca<-FactoMineR:: PCA(vars_cont, scale.unit = TRUE, ncp = 20, graph = FALSE)
acp <- dudi.pca(vars_cont, scannf = FALSE, nf = 15)
# El parámetro nf indica cuantos ejes voy a conservar
valp <- t(inertia(acp)$tot.inertia) # valores propios
kable(valp, digits = 3)
| Ax1 | Ax2 | Ax3 | Ax4 | Ax5 | Ax6 | Ax7 | Ax8 | Ax9 | Ax10 | Ax11 | Ax12 | Ax13 | Ax14 | Ax15 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| inertia | 2.197 | 1.973 | 1.666 | 1.391 | 1.174 | 1.112 | 1.017 | 0.980 | 0.917 | 0.644 | 0.564 | 0.531 | 0.330 | 0.277 | 0.226 |
| cum | 2.197 | 4.170 | 5.837 | 7.228 | 8.402 | 9.514 | 10.531 | 11.511 | 12.428 | 13.072 | 13.636 | 14.168 | 14.498 | 14.774 | 15.000 |
| cum(%) | 14.648 | 27.802 | 38.912 | 48.187 | 56.015 | 63.430 | 70.208 | 76.741 | 82.855 | 87.148 | 90.909 | 94.451 | 96.651 | 98.495 | 100.000 |
Interpretación: - \(\lambda_\alpha\): Representa la cantidad de varianza total que captura la componente \(\alpha\). - \(\tau_\alpha\): Indica la proporción de la varianza total explicada por esa componente. - \(\tau_q\): Muestra cuánta varianza total se conserva al usar solo las primeras \(q\)componentes.
\[ \text{Correlación}(Y_j, z_\alpha) = \sqrt{\lambda_\alpha} \cdot u_{j\alpha} \]
Interpretación: - Mide qué tan bien una variable \(Y_j\)está representada en la componente \(z_\alpha\). - Valores cercanos a ±1: La variable está bien representada en esa componente. - Valores cercanos a 0: La variable no está relacionada con esa componente.
\[ w_{j\alpha} = \sqrt{\lambda_\alpha} \cdot u_{j\alpha} \]
Interpretación: - Representa la posición de la variable \(j\)en el eje \(\alpha\). - Se utilizan para graficar las variables en los planos factoriales.
\[ \text{Contribución}(Y_j, z_\alpha) = \frac{u_{j\alpha}^2 \cdot \lambda_\alpha}{\lambda_\alpha} = u_{j\alpha}^2 \] O, en forma de porcentaje: \[ \text{Contribución}(\%) = \frac{u_{j\alpha}^2}{\sum_{j=1}^p u_{j\alpha}^2} \times 100 \]
Interpretación: - Indica cuánto contribuye la variable \(Y_j\)a la formación de la componente \(z_\alpha\). - Valores altos: La variable es importante para definir esa componente.
\[ \cos^2(\theta_{j,\alpha}) = \lambda_\alpha \cdot u_{j\alpha}^2 \]
Interpretación: - Representa la proporción de la varianza de la variable \(Y_j\)que es explicada por la componente \(z_\alpha\). - Valores altos: La variable está bien representada en esa componente.
\[ z_{i\alpha} = \sum_{j=1}^p u_{j\alpha} \cdot y_{ij} \] o, en notación matricial: \[ z_\alpha = Y \cdot u_\alpha \]
Interpretación: - Representa la posición del objeto \(i\)en la componente \(\alpha\). - Se usan para graficar los objetos en los planos factoriales.
\[ \text{Contribución}(i, z_\alpha) = \frac{z_{i\alpha}^2}{\lambda_\alpha} \]
Interpretación: - Indica cuánto contribuye el objeto $i $a la varianza de la componente $z_$. - Valores altos: El objeto es importante para definir esa componente.
\[ \cos^2(\theta_{i,\alpha}) = \frac{z_{i\alpha}^2}{\sum_{\alpha=1}^p z_{i\alpha}^2} \]
Interpretación: - Mide qué tan bien está representado el objeto $i $en la componente $$. - Valores altos: El objeto está bien representado en esa componente.
matriz de correlación \[ d^2(Y_j, Y_{j'}) = 2 \left(1 - \cos(\theta_{jj'})\right) \] donde $() $es la correlación entre $Y_j $e $Y*{j’} $.
Interpretación: - $d $: Variables muy correlacionadas. - $d $: Variables no correlacionadas. - $d $: Variables inversamente correlacionadas.
\[ d^2(i, i') = \sum_{j=1}^p (y_{ij} - y_{i'j})^2 \]
Interpretación: - Objetos cercanos: Tienen perfiles similares. - Objetos lejanos: Tienen perfiles diferentes. - Objetos en cuadrantes opuestos: Tienen perfiles opuestos.
Interpretación: - Permiten incluir información adicional sin afectar el cálculo de las componentes. - Cercanía a variables/objetos activos: Indica similitud o asociación.
# Crear muestra del 10%
muestra_10pct <- datos_con_dummies %>%
sample_frac(0.10)
nrow(muestra_10pct) # 3 154
# 1. ACP estándar
result <- PCAshiny(muestra_10pct %>% select(-id_persona))